Reinforcement learning from human feedback

Reinforcement learning from human feedback (RLHF) (deutsch Bestärkendes Lernen durch menschliche Rückkopplung) steht für maschinelles Lernen, bei dem ein Software-Agent selbständig eine Strategie (Policy) erlernt, um erhaltene Belohnungen zu maximieren. Dabei wird dem Agenten nicht vorgezeigt, welche Aktion in welcher Situation die beste ist, sondern er erhält durch eine Bewertungseinheit zu bestimmten Zeitpunkten durch Rückkopplung (Feedback) aus der Umwelt eine reellwertige Belohnung, die auch negativ sein kann. Im Gegensatz zum klassischen bestärkenden Lernen bestimmt zusätzlich eine Bewertungseinheit eine weitere Belohnung nach Überprüfen von Resultaten des Software-Agents durch Personen, welche das sogenannte Alignment[1] mit menschlicher Denkweise, Erwartung und Wertvorstellung beurteilen.[2][3][4] Das Unternehmen Open AI hat diese zusätzliche, nachträgliche Feineinstellung mittels RLHF bei der Entwicklung von InstructGPT eingeführt und anschließend für die Entwicklung von ChatGPT und dessen Nachfolgern verwendet.[5]

  1. Samuel Dylan Martin: Ten Levels of AI Alignment Difficulty. alignmentforum.org. 3. Juli 2023. Abgerufen am 30. August 2023 (englisch).
  2. Long Ouyang et al.: Training language models to follow instructions with human feedback (InstructGPT). NeurIPS 2022 Conference, 31. Oktober 2022. Abgerufen am 10. August 2023 (englisch)
  3. Kevin Roose: How Does ChatGPT Really Work? In: New York Times, 28. März 2023. Abgerufen am 16. August 2023 (englisch)
  4. Paul F Christiano et al.: Deep Reinforcement Learning from Human Preferences. arXiv.org, 17. Februar 2023. Abgerufen am 16. August 2023 (englisch)
  5. Introducing ChatGPT. In: OpenAI. OpenAI, Inc., 30. November 2022, abgerufen am 18. Juli 2024 (englisch).

From Wikipedia, the free encyclopedia · View on Wikipedia

Developed by Tubidy